English

汉语拼音是语言信息处理的有效工具

2000-09-14 来源:光明日报 语言文字应用研究所研究员 冯志伟 我有话说

1986年《全国语言文字工作会议纪要》指出:“在今后相当长的时期,汉字仍然是国家的法定文字,还要继续发挥其作用。《汉语拼音方案》作为帮助学习汉语、汉字和推广普通话的有效工具,进一步推行并扩大其使用范围,但它不是代替汉字的拼音文字,可以用于汉字不便使用或不能使用的方面。”这样的提法比建国初期毛泽东主席提出的“走世界文字共同的拼音化方向”明显地改变了,但强调了进一步推行并扩大《汉语拼音方案》的使用范围。

现在,我们正在迈向21世纪,由于Internet的普遍使用,如何进一步提高语言文字在网络上的传输和使用效力,成了一个十分迫切的问题。在这个问题上,汉语拼音具有重要的作用,我们应该进一步推行并扩大《汉语拼音方案》在语言信息处理中特别是网络上的使用范围。

80年代初,我曾计算出汉字的熵为9.65比特,比英语的字幕的熵4.03比特高出1倍多。文字字符的熵是它的信息量的度量,美国在香农(Shannon)的信息熵理论的基础上建立了高效的英语信息处理系统,而汉字具有比英语字母高得多的熵值,十分不利于汉字信息处理。因此我强烈呼吁,我国应该在信息熵的理论的基础上全盘考虑中文的信息化问题,如果在中文信息处理中采用汉语拼音,其效率可以同英文的信息处理系统相媲美。

我的这个意见在汉字的键盘输入法中得到证实。20年来,虽然我国出现了众多的汉字键盘输入法,但最受广大群众欢迎的是拼音输入法。因为拼音输入法易学易记,特别适合非专业人员使用,而编码输入法虽然输入速度比较快,但学习代价很高,容易遗忘,如果把学习和记忆的代价考虑进去,其总体效率并不比拼音输入法高。专业的录入人员可以使用编码,但是普通的计算机用户还是欢迎拼音输入。拼音输入还有利于提高用户的普通话水平,由于拼音输入是以普通话的语音为标准的,方言区的用户如果经常使用拼音输入,可以不断地矫正自己的发音,普通话的发音就会越来越标准。

当今世界正在进入多语言的网络时代,不少国家都在建设自己的信息通信网络。美国已经建立了多媒体的信息网等四通八达的信息技术基础设施,我国的信息通信网络建设也在迅速发展。作为信息主要负荷者的语言文字,在信息通信网络建设中起着关键的作用。据报道,日本由于其文字系统复杂,在信息通信网络的建设中出现困难。如果我国在信息通信网络建设中,在计算机系统上以汉语拼音作为信息的载体,由于拼音字母的熵比汉字的熵小得多,将会大大提高系统的通信效率,更有利于国际交流。

在过去很长一段时间里,我国拉丁化运动的先驱者曾试图在全国推行拉丁化新文字。但实践证明汉字的传统力量极为强大,拉丁化新文字难以在全民中推行,汉字作为中华民族传统文化的象征将会永远地存在下去。但是如果我们在信息网络时代不要求在全民中推行拉丁化新文字,而只是在计算机上实行“文字的双轨制(two-scriptsystem)”,既可使用汉字,又可使用汉语拼音,在人机界面上使用汉字,汉语拼音只局限于计算机信息处理和传输中使用,并且建立高效准确的汉字和汉语拼音的自动转换系统,根据实际的需要随时进行二者的相互转换,面向人时转换为汉字,面向计算机时转换为汉语拼音。由于我们在信息通信网络中面向机器时使用的字符与世界上大多数发达国家的拉丁字符相一致,字符的信息熵比汉字的熵小得多,这必将显著地提高我国信息通信网络系统的效能,而在面向人时转换为汉字,又便于熟悉和喜爱汉字的人们阅读和使用,这对于我国的社会主义现代化将是大有好处的。这样一来,拉丁化新文字运动的先驱者们梦寐以求的理想,虽然不可能在全民中实现,但却可以在计算机通信网络中实现,他们也足以聊以自慰,瞑目于九泉了。

当然,在计算机上实行“文字双轨制”,只是我的一种设想,对于它的可行性和利弊得失,还需要反复权衡,通盘考虑。我愿借今年推普周的时机,再次提出这个重要的问题供大家讨论,希望它能够产生抛砖引玉的效果。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有